论文推荐|[CVPR 2021] 基于基元表征学习的场景文字识别

Original 闫睿劼 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍来自清华大学电子工程系的一篇论文“Primitive Representation Learning for Scene Text Recognition”，此论文已发表于CVPR 2021，它提出了一种基于基元表征学习的场景文字识别方法。

一、引言

常用基于深度学习的场景文字识别方法主要分为基于CNN+RNN+CTC的方法[1]和基于注意力机制的方法[2,3]两大类。这两类方法各有不足之处，例如，前者通常将CNN输出的特征图按滑动窗转换为特征序列，对不规则排列的文字图像缺乏适应能力；后者的解码器通常需要利用当前时刻之前的输出进行递归解码，速度较慢，并且容易受到注意力偏移问题的困扰[4,5]。

不同于上述两类方法，本文提出一种新的基于基元表征学习的场景文字识别网络模型PREN (Primitive REpresentation Learning Network)。首先，通过全局聚合的方法从特征图中提取基元表征，基元表征可以看作描述特征图的基向量，然后通过图卷积网络(GCN)将基元表征加权转换为视觉文字表征。视觉文字表征既可以直接用于快速并行解码，也可以与基于注意力机制的模型集成，进一步提高识别性能。

图1 不同场景文字识别系统的对比。(a) 基于CNN+RNN+CTC的方法，’_’表示CTC解码中的空白符号；(b) 基于注意力机制的方法；(c) 本文提出的基元表征学习方法PREN。

二、方法

基元表征学习 通过对特征图进行全局聚合得到基元表征。全局聚合的表示形式为：

其中

为特征图；

为全局聚合网络中第

个子网络对应的映射函数，将特征图转换为隐含表征

；

为第个聚合权重，用于将聚合为一个向量形式的基元表征

。

通过设计不同的聚合权重和映射函数，本文实现了两种全局聚合器：池化聚合器和加权聚合器。

图2 两种全局聚合器。(a) 池化聚合器，直接对特征图进行卷积和全局平均池化得到基元表征。(b) 加权聚合器，特征图经过两个卷积分支，其中一个分支输出加权系数热力图，作为对另一分支输出特征图的全局聚合权重。图中#k为卷积核个数。

池化聚合器 通过全局平均池化为各通道特征图设置相等的聚合权重。对于不同的输入样本，利用池化聚合器可以得到统一的样本全局结构基元表征。其计算过程为：

加权聚合器 对样本动态学习不同聚合权重，对于不同的输入样本，利用加权聚合器可以得到不同样本特有的局部结构信息。其计算过程为：

视觉文字表征学习 通过对基元表征加权组合得到视觉文字表征。本文提出采用图卷积网络(Graph Convolutional Networks, GCN)进行视觉文字表征学习。其计算过程为：

其中，

为基元表征，

和

为两个可学习的参数矩阵。将

的基元表征矩阵看作为一个图结构的

个顶点，每个顶点为一个d维向量。在常规图卷积中，矩阵B为

的邻接矩阵，在本文中，矩阵B设计为

维，将个基元表征转换为L个视觉文字表示向量。每个视觉文字表示向量对应一个待识别的字符。L为预设的场景文字样本中的字数上限。在训练阶段中，文本标签真值后加上符号Eos (End Of Sentence)作为结束标志，若输入图像样本中的字数小于L，则在结束符号Eos后用Padding符号将字数补齐为L个；在测试阶段中，以结束符号Eos作为预测文本结束标志，将预测文本中Eos之后的符号舍弃掉。在本文实验中，若无特殊说明，基元表征数量设为5，文本预测字数上限L设为25。

图3 视觉文字表征学习示意图

PREN模型架构 PREN包含特征提取模块和基元表征学习模块。特征提取模块采用卷积神经网络EfficientNet-B3 [6]提取多尺度特征图。基元表征学习模块实现基元表征学习和视觉文字表征学习，对不同尺度的特征图，分别采用一个池化聚合器和一个加权聚合器学习基元表征，并分别对多尺度的基元表征进行并接，再通过GCN得到视觉文字表征，然后将两种全局聚合器得到的视觉文字表征进行融合，比如直接相加等，不同融合方式的实验参见论文补充材料(Supplementary Material)。最后，通过一个全连接层及Softmax函数直接对视觉文字表征并行解码得到识别结果。PREN的模型架构如图4所示。

图4 PREN模型架构

PREN2D：PREN + 2D注意力机制 视觉文字表征与文本嵌入特征 (Character Embeddings) 不同，它可以为注意力机制的解码过程提供全局视觉信息。本文将PREN和一个具有二维注意力机制的基准模型Baseline2D[7]通过门控单元集成在一起，构成PREN2D模型。

图5 PREN2D网络结构

本文使用的基准模型Baseline2D [7]是一种Transformer [8]的改进形式。在编码器中，改进的自注意力机制为：

其中，，为特征图按元素展开的向量中的第个元素，为对应于Query，Key和Value的可学习参数矩阵，表示的邻近元素。本文中和均采用卷积，即编码器在计算注意力系数时利用了特征图中的局部空间信息。

三、主要实验结果

本文在英文场景文字数据集（IIIT5k, SVT, IC03, IC13, IC15, SVTP, CUTE）和中文场景文字数据集（选自RCTW的子集）上进行了实验。

表1为英文场景文字识别的主要实验结果，训练集采用合成数据集MJSynth (MJ)和SynthText (ST)。在测试集上，PREN优于具有相同特征提取模块的CNN-LSTM-CTC模型；PREN2D优于基准模型Baseline2D。

表1. 不同模型在英文场景文字识别任务中的单词识别正确率(%)

表2对比了不同模型识别一张图像的平均运行时间。其中，PREN的识别速度比CNN-LSTM-CTC略快；与Baseline2D相比，PREN2D仅多用5.8ms。

表2 不同模型识别一张图像的平均运行时间对比

表3对比了采用不同全局聚合方法的PREN模型性能，可以看出，结合池化聚合器和加权聚合器的模型效果更好。

表3 采用不同聚合方法的PREN模型单词识别正确率(%)

基元表征数量变化对PREN模型性能的影响如图6所示。当基元表征的数量适中（如5个）时，模型能够取得最优性能。

图6基元表征数量变化对PREN模型单词识别正确率(%)的影响

在多方向中文场景文字识别实验中，样本集包含横排文本、竖排文本等多种情况。对于竖排文本，基于CNN+RNN+CTC的模型通常会将其旋转90度作为输入，这会导致模型需要学习的字符模式具有直立和额外旋转90度的情形。与之不同的是，PREN不需要对样本进行额外旋转，就可以通过全局聚合得到兼顾横排与竖排文本的基元表征。在预处理时，PREN只需对图像根据其宽高比归一化到设定的尺寸，若宽高比大于设定阈值，则判定为横排样本，归一化尺寸为64x256；否则判定为竖排样本，归一化尺寸为256x64。表4对比了不同模型在多方向中文场景文字识别实验中的性能，样本集为选自RCTW的子集，大致分为横排和竖排两部分。其中，PREN优于CNN-LSTM-CTC模型，PREN2D优于基准模型Baseline2D。

表4 多方向中文场景文字识别实验中不同模型的文本行识别正确率(%)

四、可视化分析

不同模型的识别结果示例如图7所示。

图7 不同模型的识别结果示例

在池化聚合器中，两个输入样本图像对应于5个基元表征的特征图（全局平均池化之前，特征图按通道取平均用于可视化显示）如图8所示。对于5个基元表征，不同输入图像对应于同一基元表征的特征图是相似的，表明池化聚合器能够学习统一的样本全局结构基元表征。

图8 池化聚合器可视化示意图

在加权聚合器中，对应于5个基元表征计算所用的加权系数热力图如图9所示，字符区域对应的权重相对较高，表明加权聚合器可以得到不同样本特有的局部结构信息。

图9 加权聚合器可视化示意图

Baseline2D和PREN2D对于同一样本生成的注意力系数如图10所示，其中，Baseline2D把最后一个字母“N“的右半部分误识为”I“，而PREN2D避免了此问题。

图10 不同模型生成的注意力系数比较

五、总结

针对场景文字识别任务，不同于常用的CNN+RNN+CTC和注意力机制框架，本文提出了基于基元表征学习的新方法。该方法通过全局聚合学习基元表征，并进一步通过GCN转换为视觉文字表征。视觉文字表征既可以用于直接并行解码，也可以结合基于注意力机制的模型进一步提高识别性能。通过在中英文场景文字识别数据集上的实验，验证了本文所提出方法的有效性。

六、相关资源

论文下载链接：

https://openaccess.thecvf.com/content/CVPR2021/papers/Yan_Primitive_Representation_Learning_for_Scene_Text_Recognition_CVPR_2021_paper.pdf

论文补充材料下载链接：

https://openaccess.thecvf.com/content/CVPR2021/supplemental/Yan_Primitive_Representation_Learning_CVPR_2021_supplemental.pdf

GitHub地址 (PREN的源码，不含PREN 2D)：

https://github.com/RuijieJ/pren

七、参考文献

[1] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach. Intell., 39(11):2298–2304, 2017.

[2] Canjie Luo, Lianwen Jin, and Zenghui Sun. MORAN: A multi-object rectified attention network for scene text recognition. Pattern Recog., 90:109–118, 2019.

[3] Baoguang Shi, Mingkun Yang, Xinggang Wang, et al. ASTER: An attentional scene text recognizer with flexible rectification. IEEE Trans. Pattern Anal. Mach. Intell., 41(9):2035–2048, 2019.

[4] Zhanzhan Cheng, Fan Bai, Yunlu Xu, et al. Focusing attention: Towards accurate text recognition in natural images. In ICCV, pages 5076–5084, 2017.

[5] Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, et al. Decoupled attention network for text recognition. In AAAI, pages 135-151, 2020.

[6] Mingxing Tan and Quoc V. Le. EfficientNet: Rethinking model scaling for convolutional neural networks. In ICML, pages 6105–6114, 2019.

[7] Ruijie Yan, Liangrui Peng, Shanyu Xiao, et al. MEAN: Multi-element attention network for scene text recognition. In ICPR, pages 6850-6857, 2021.

[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, et al. Attention is all you need. In NeurIPS, pages 5998–6008, 2017.

原文作者：闫睿劼，彭良瑞，肖善誉，姚刚

撰稿：闫睿劼编排：高学审校：连宙辉发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐|[CVPR 2021] 基于基元表征学习的场景文字识别

论文推荐| [CVPR2021] Semantic-Aware Video Text Detection

论文推荐| [ACL 2021] LayoutLMv2:视觉富文档理解的多模态预训练（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐|[CVPR 2021] 基于基元表征学习的场景文字识别

论文推荐| [CVPR2021] Semantic-Aware Video Text Detection

论文推荐| [ACL 2021] LayoutLMv2:视觉富文档理解的多模态预训练（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣